智能论文笔记

FashionVQA: A Domain-Specific Visual Question Answering System

Min Wang , Ata Mahjoubfar , Anupama Joshi

分类：计算机视觉 | 人工智能 | 自然语言处理 | 机器学习

2022-08-24

人类通过各种感官方式逮捕了世界，但语言是他们主要的交流渠道。机器学习系统需要利用相同的多模式丰富性，以使人类以自然语言知情。对于专门从事视觉密集信息的系统，例如对话，建议和搜索引擎，尤其如此。为此，我们训练一个视觉问题回答（VQA）系统，以回答有关时尚拍摄图像中服装的复杂自然语言问题。成功培训我们的VQA模型的关键是使用不同模板从207,000张图像的项目属性中自动创建一个视觉提问数据集。样本生成采用了一种策略，该策略考虑了提问的困难，以强调具有挑战性的概念。与使用几个数据集预处理视觉问题答案模型的最新趋势相反，我们专注于保持数据集的固定，同时从头开始训练各种模型以隔离模型体系结构的改进。我们看到，使用相同的变压器编码问题并解码答案，就像在语言模型中一样，可以达到最大的准确性，表明视觉语言模型（VLMS）为我们的数据集提供了最佳的视觉问题答案系统。最佳模型的准确性也超过了人类专家的水平，即使回答不限于模板格式的人类生成的问题。我们生成大规模多模式域特异性数据集的方法为训练能够以自然语言进行交流的专业模型提供了途径。这样的域 - 专家模型的培训，例如我们的时尚VLM模型，不能仅依靠从网络收集的大规模通用数据集。

translated by 谷歌翻译

大型神经语言模型（NLMS）的域适应性在预审进阶段与大量非结构化数据结合在一起。但是，在这项研究中，我们表明，经过验证的NLMS从紧凑的数据子集中更有效，更快地学习内域信息，该数据集中在域中的关键信息上。我们使用抽象摘要和提取关键字的组合从非结构化数据构建这些紧凑的子集。特别是，我们依靠Bart生成抽象性摘要，而Keybert从这些摘要中提取关键字（或直接的原始非结构化文本）。我们使用六个不同的设置评估我们的方法：三个数据集与两个不同的NLMS结合使用。我们的结果表明，使用我们的方法在NLM上训练的特定任务分类器，使用我们的方法优于基于传统预处理的方法，即在整个数据上随机掩盖，以及无需审计的方法。此外，我们表明我们的策略将预处理的时间降低了五倍，而这是香草预处理的五倍。我们所有实验的代码均在https://github.com/shahriargolchin/compact-pretraining上公开获得。

translated by 谷歌翻译

对机器学习模型的逃避攻击通常通过迭代探测固定目标模型成功，从而曾经成功的攻击将反复成功。应对这种威胁的一种有希望的方法是使模型成为对抗输入的行动目标。为此，我们介绍了Morphence-2.0，这是一个由分布外（OOD）检测提供动力的可扩展移动目标防御（MTD），以防止对抗性例子。通过定期移动模型的决策功能，Morphence-2.0使重复或相关攻击成功的挑战变得极大。 Morphence-2.0以基本模型生成的模型池以引入足够随机性的方式对预测查询进行响应。通过OOD检测，Morphence-2.0配备了调度方法，该方法将对抗性示例分配给了强大的决策功能，并将良性样本分配给了未防御的准确模型。为了确保重复或相关的攻击失败，已部署的模型池在达到查询预算后自动到期，并且模型池被提前生成的新模型池无缝替换。我们在两个基准图像分类数据集（MNIST和CIFAR10）上评估Morphence-2.0，以4个参考攻击（3个白框和1个黑色框）。 Morphence-2.0始终优于先前的防御能力，同时保留清洁数据的准确性和降低攻击转移性。我们还表明，当由OOD检测提供动力时，Morphence-2.0能够精确地对模型的决策功能进行基于输入的运动，从而导致对对抗和良性查询的预测准确性更高。

translated by 谷歌翻译

背景和目的：髋臼版本，总髋关节置换术的必要因素，通过CT扫描作为金标准测量。 CT的辐射剂量和耗材使前后骨盆射线照相适当的替代程序。在这项研究中，我们在前后骨盆X射线上应用了深度学习方法来测量解剖学版本，消除了使用计算机断层扫描的必要性。方法：使用CT图像计算300名患者臀部的右侧和左侧髋臼版角。所提出的深度学习模型，对骨骼时代的预用-VGG16的注意力应用于包括群体的AP图像。这些人的年龄和性别被添加到最后一个完全连接的注意机制层的其他投入。作为输出，预测两个臀部的角度。结果：随着人们更老的，在CT上增加了CT的髋骨角度，男性的平均值为16.54和16.11（右侧和左角度）。使用所提出的深度学习方法估计右侧角度估计的预测错误位于精确的误差区域（<= 3度），显示了所提出的方法在基于AP图像测量解剖学版本的能力。结论：建议算法，在患者骨盆的AP图像上应用预训练的VGG16，其次是考虑年龄和患者性别的注意力模型，可以仅使用AP射线照片准确评估版本，同时避免CT扫描的需要。基于AP盆景的解剖学髋臼版本的应用技术，使用DL方法，迄今为止尚未发布。

translated by 谷歌翻译